我们研究了一种新型的非参数基于基于纵向数据分析的基于非参数的聚类算法。该算法将天然立方花纹与高斯混合模型(GMM)相结合,可以产生光滑的簇,可以很好地描述基础数据。但是,算法中存在一些缺点:参数估计过程中的高计算复杂性和数值不稳定的方差估计器。因此,为了进一步提高该方法的可用性,我们合并了降低其计算复杂性的方法,我们开发了一种新的,更稳定的方差估计器,并开发了一种新的平滑参数估计过程。我们表明,就聚类和回归性能而言,开发的算法SMIX在合成数据集上的性能优于GMM。我们演示了计算加速器的影响,我们在新框架中正式证明了计算加速器。最后,我们通过使用SMIX来群集垂直大气测量来确定不同的天气状况。
translated by 谷歌翻译
对于自然语言处理应用可能是有问题的,因为它们的含义不能从其构成词语推断出来。缺乏成功的方法方法和足够大的数据集防止了用于检测成语的机器学习方法的开发,特别是对于在训练集中不发生的表达式。我们提出了一种叫做小鼠的方法,它使用上下文嵌入来实现此目的。我们展示了一个新的多字表达式数据集,具有文字和惯用含义,并使用它根据两个最先进的上下文单词嵌入式培训分类器:Elmo和Bert。我们表明,使用两个嵌入式的深度神经网络比现有方法更好地执行,并且能够检测惯用词使用,即使对于训练集中不存在的表达式。我们展示了开发模型的交叉传输,并分析了所需数据集的大小。
translated by 谷歌翻译